次数分布
本章指南
分析数据需要做的第一步就是进行描述统计。描述统计是用来整理、概括和简化数据的统计方法。在描述统计中,我们可以运用次数分布来将数据分门别类进行整理。本章我们将学习次数分布表、次数分布图、次数分布的形状并掌握百分位数、百分位等级和插值法。
学习要点
- 学会作次数分布,累计次数分布,和分组次数分布表;
- 学会用茎和叶图,直方图,棒图,线图表达次数分布;
- 了解正偏态分布和负偏态分布;
- 掌握百分位数和插值法。
次数分布表
简单次数分布表 (Simple Frequency Table)
将相同值的数据归为一组后,可以得到每个值出现的次数,将这些次数以表的形式表示出来,将数据
简单次数分布表中
有时候我们需要计算变量总和,这时候只要将所有的分数相加,即:
比例 (proportions) 就是全组中取值为
百分比 (percentages) 就是将小数形式的比例乘以 100 转换而成的。
分组次数分布表
当样本可取的数据的数值比较多时,我们就需要对数值进行分组。进行分组数据统计,关键的一点就是划分数据区间,也就是确定每组的取值范围。每组中包含的数据值的最大值与最小值的差距我们称为组距,一般来说,81-90 的数据组,我们认为 80.5 为数据值的最小值,而 90.5 为数据的最大值。全部数据的最大值与最小值的差距叫做全距。而当组数确定之后,我们可以大概确定组距,三者的关系为:
当然,组距一般取较为简单的数字,如 10 或者 5 的倍数,而且每组的起点也应该尽量简单。
次数分布图
直方图 (histogram),棒图 (bar graph)
- 直方图,适用于等距或等比数据,横轴表示数据
,纵轴表示次数 ,以数据间的直方条表示次数分布。直方条的高度表示次数,宽度表示精确区间。 - 当数据是命名或顺序测度时,则用棒图表示次数分布,每个直方条之间留有一定的空间。
折线图 (frequency distribution polygon)
- 折线图,也叫次数分布多边图,适用于等距或比例型数据,将每个
值对应的次数点连成折线,以线条表示数据的变化趋势。
茎叶图 (stem and leaf display)
- 茎叶图,可以实现不用分组次数分布表来表示众多的数据。
- 在正式的报告中,一般不使用茎叶图。
茎和叶图
在茎叶图中,所有的数据被分为两部分:第一位数字作为“茎”,第二位数字作为“叶”,它通过将数据按照数值大小排列,构成一个类似于数字树的图形,以展示数据的分布情况。
茎叶图和次数分布图有类似之处,如茎叶图中的“茎”一栏的数值对应次数分布图中的分组区间,茎叶图拥有次数分布图的直观特性,同时在茎叶图中,我们可以直观地看到所有的数据,这是茎叶图的优势。
茎叶图虽然很有用处,但是我们一般将其视作对数据进行初步处理的一种方法,在正式的报告中,一般不使用茎叶图。
次数分布的形状
对称分布 (symmetrical distribution)
- 定义:平均值两侧的频率相对于平均值镜面分布。
偏态分布 (skewed distribution)
- 定义:数据堆积在分布的一端,而另一端成为比较尖细的尾端。
正偏态 (positively skewed)
- 数据堆积在左侧,尾部在右的偏态分布。其尾端指向
轴的正数一端,故称正偏态分布。具有均值大于中位数的特点。
负偏态 (negatively skewed)
- 数据堆积在右侧,尾部位于左边,则该分布被称为负偏态分布。具有均值小于中位数的特点。
偏态分布反映了数据的非对称性。在处理时,需要采取一些特殊的方法,如对数转换、Box-Cox变换等。
双峰分布 (bimodal distribution)
- 定义:数据分布中存在两个明显的峰值或高频率区域,即次数集中在两个分数,以致分布曲线出现两个隆起的峰的分布称为双峰分布。
矩形分布 (rectangle distribution)
- 定义:分布中所有值都是相同频次的分布称为矩形分布
百分位数,百分位等级,插值法
百分位数、百分位等级
百分位等级 (Percentile rank)
某一分布中,分数 (score) 在某一值之下或等于该值的个体所占的百分比。
百分位数 (Percentile)
恰取这一值的分数称为这一百分位等级的百分位数。
例子
有 58% 的同学分数为 7 分或在 7 分下,则分数 X=7 的百分位等级为 58% ,这个分数就是第 58 个百分位数。
注意事项
在某一个案例中,分数有 1 - 5 分,对于分数 4 , 算得其对应的累积百分比是 95% ;但注意,分数 4 意味着一个人得分在 3.5 和 4.5 之间,第 95 百分位数是 4.5 ,而不是 4.0 。
插值法 (Interpolation)
插值法是一种求解两个数值之间某位置数值的方法,其假设是在所求解点的附近1个组距单位区间之内的分数和对应的百分比的变化是线性的。
插值法步骤
假设要求的数值如图所示:
- 找到距求解点最近的两个区间(较远的区间不满足分数和对应的百分比线性变化的假设)。
- 根据数据列出方程:
- 由等式求得结果
。
芷沐沐